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摘要 : [目的 /意义 ] 利 用 关联 数据 唯一 性 、 链 接 性 等 特点 ， 对 机 构 知 识 库 实体 进行 学 术 关 系 
发 现 与 关联 组 织 ， 实 现 机 构 知识 库 资源 语义 聚集 。[ 方 法 /过 程 ] 分 析 实 体 学 术 关 系 类 型 及 特 
下 、 关 联 数 据 要 求 ， 提 出 学 术 关 系 关 联 方法 及 流程 ， 利 用 河 海 大 学 机 构 知 识 库 数据 开展 实 
证 研究 。[ 结 果 / 结 论 ] 构 建 了 基于 关联 数据 的 实体 学 术 关 系 发 现 方法 ， 发 现 了 实证 数据 间 的 
学 术 关 系 ， 并 指出 其 应 用 价值 。 通 过 该 方法 可 以 实现 机 构 库 资源 语义 关联 ， 提 供 基 于 关联 
数据 的 知识 检索 服务 ， 满 足 用 户 知识 需求 。 
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~ 1 引言 
A 机 构 知识 库 (Institutional Repositories, IR) 是 存储 与 管理 、 传 播 与 分 享 学 术 机 构 知 识 


© 资源 的 重要 平台 ， 对 于 促进 科研 成 果 共 享 交流 、 提 升 科 学 家 及 机 构 学 术 影 响 力 、 完 善 成 果 
产 出 组 织 管理 等 方面 均 有 重要 作用 。 全 球 首 个 机 构 知 识 库 是 美国 麻 省 理工 学 院 于 2002 FH 
建 的 DSpace@MIT， 经 过 二 十 余年 发 展 ， 截 至 2023 年 2 月 ， 登 记 于 开放 存 取 知 识 库 目 录 
OpenDOAR 的 机 构 知 识 库 达 到 6012 个 ， 其 中 中 国 大 陆地 区 共有 65 个 OpenDOAR. Browse by 
country [EB/OL]. [2023-02-28]. https://v2.sherpa.ac.uk/view/repository_by_ country/.. 

机 构 知 识 库存 储 着 本 单位 产生 的 论文 、 专 利 、 研 究 报告 等 多 种 类 型 、 不 同 格式 的 成 果 

os CUR, RAST ZA SE BINA. HARE EI KAS ZAR, 
Z 实现 资源 语义 集成 组 织 与 一 站 式 发 现 ， 是 机 构 知 识 库 建 设 与 持续 发 展 的 重要 内 容 。 关 联 数 
据 (Linked Data) 提出 于 2006 年 ， 能 够 通过 关联 技术 使 分 布 在 不 同时 间 、 不 同 空间 的 资源 
联系 在 一 起 ， 是 机 构 知 识 库 实现 资源 语义 发 现 的 重要 技术 手段 。 
— 学 术 关 系 是 科学 研究 产生 与 发 展 过 程 中 存在 的 关联 关系 ， 对 机 构 知识 库 资 源 实 体 之 间 
存在 的 学 术 关 系 进行 发 现 关 联 ， 有 利于 揭示 资源 之 间 的 学 术 联 系 ， 增 强 检 索 结 果 学 术 相 关 
性 ， 提 高 用 户 检索 效率 ， 促 进 机 构 知 识 库 语义 检索 、 智 能 导航 、 科 学 评价 等 深层 次 知识 服 
务 。 本 文 试图 在 已 有 研究 的 基础 上 ， 探 析 基 于 关联 数据 的 机 构 知识 库 实体 学 术 关 系 发 现 方 
法 ， 为 机 构 知 识 库 资源 集成 组 织 与 知识 发 现 提供 参考 。 


2 相关 研究 现状 


2.1 机 构 知 识 库 实 体 学 术 关 系 研究 现状 

国内 外 已 开展 机 构 知 识 库 实体 关系 方面 的 研究 ， 包 括 Q 基 于 数据 模型 的 关系 关联 研究 ， 
如 孙 习 等 研究 了 机 构 库 实体 数据 关联 模型 的 构建 孙 翌 , 胡 爱 .基于 多 维度 关联 的 机 构 知 识 库 数 
据 模型 的 构建 与 分 析 叫 .现代 情报 ,2018,38(07):95-106,159.， 获 晓 阳 等 分 析 了 CRIS 中 CERIF 
模型 的 实体 关系 及 其 语义 关联 ， 可 与 机 构 知 识 库 实 现 有 机 链接 袭 晓 阳 , 刘 啸 , 邵 波 .CRIS 技术 
发 展 及 应 用 对 中 国 高 校 机 构 知 识 库 建 设 启示 吕 . 图 书馆 学 研究 ,2019(10):38-44,67.，Farid, H 
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等 研究 了 机 构 知 识 库 实体 与 本 体 的 语义 关联 Farid H, Khan S, Javed M Y. DSont: DSpace to 
Ontology Transformation[J]. Journal of Information Science,2016(42):179-199.; Q Æ T HF E 
源 实体 的 关系 关联 研究 ， 如 陈 嘉 勇 等 研究 了 机 构 知 识 库 文献 数据 实体 关系 陈 嘉 勇 Vien 
,等 .基于 文献 实体 关系 模型 的 高 校 机 构 知 识 库 作者 认领 模式 研究 叫 . 情 报 理论 与 实践 ， 
2015,38(02):59-63.， 魏 来 等 研究 了 机 构 知 识 库 资源 与 书目 数据 的 关系 关联 方法 魏 来 TTR. 
基于 RDA 的 图 书馆 书目 数据 与 机 构 知 识 库 数据 关联 研究 叫 . 图 书馆 工作 与 研究 ,2018(07):43- 
49., Hallo, M 等 研究 了 开放 获取 期 刊 关联 数据 发 布 方法 ， 可 应 用 于 机 构 知 识 库 数据 关联 组 
织 Hallo M, Lujan-mora S, Trujillo J. An Approach to Publish Statistics from Open-Access Journals 
Using Linked Data Technologies[C]. 9th International Technology, Education and Development 
Conference (INTED). INTED Proceedings. SPAIN: IATED-INT Assoc Technology Education & 
Development,2015:5940-5948.. 
学 术 关 系 是 指 产生 于 学 术 生 产 与 发 展 过 程 中 的 关联 关系 ， 有 助 于 厘清 学 术 发 展 的 历史 
脉络 、 总 结 学 术 合作 关系 形成 与 发 展 的 基本 规律 刘 绍 怀 .学 术 链 :客观 存在 的 学 术 关 系 形 态 
叫 . 思 想 战 线 ,2011,37(01):1-3.。 图 书 情报 领域 对 学 术 关 系 的 研究 主要 是 基于 社会 网 络 分 析 、 
多 元 统计 分 析 等 方法 ， 分 析 知 识 脉络 发 展 、 学 术 交 流行 为 等 学 术 关 系 问题 任 瑞 娟 , 濮 德 敏 , 张 
媛 .基于 五 维 学 术 关 系 发 现 的 知识 脉络 可 视 化 实践 [j]. 大 学 图 书馆 学 报 ,2016,34(01):69-75.。 专 
门 研究 机 构 知 识 库 实体 学 术 关 系 关 联 与 发 现 的 内 容 较 少 ， 本 文 作者 及 其 团队 在 前 述 研究 中 
= 研究 并 探讨 了 机 构 知识 库 科 研 实体 学 术 关 系 发 现 体 系 孙 清 玉 , 梁 美 宏 , 胡 晓 辉 .机 构 知 识 库 科 
CN 研 实体 学 术 关 系 发 现 体系 研究 四 .情报 杂志 ,2022,41(11):179-184.。 
N 2.2 关联 数据 在 机 构 知 识 库 中 的 应 用 现状 
© 关联 数据 自 产生 以 来 ， 引 起 国内 外 广泛 研究 与 应 用 。 关 联 数据 的 本 质 是 将 各 种 分 布 式 、 
异 构 数 据 通 过 语义 关联 连接 在 一 起 ， 核 心理 念 是 开放 、 关 联 、 复 用 。 2007 年 万 维 网 联盟 
W3C 启动 LOD 关联 开放 数据 (Linking Open Data〉 项 目 ， 并 发 布 关联 开放 数据 云图 ， 截 至 
2023 年 2 月 ， 其 收集 的 开放 关联 数据 集 已 达到 1594 个 The Linked Open Data Cloud. [EB/OL]. 
=, [2023-02-20].https://www.lod-cloud.net/.。 图 书馆 界 ， 瑞 典 国 家 图 书馆 最 先 将 本 国 国家 联合 
OQ 目录 转换 为 关联 数据 ， 之 后 美国 、 英 国 、 法 国 等 国 陆续 将 本 国 图 书馆 书目 数据 发 布 为 关联 
eg 数据 张 海 玲 . At H 数据 的 关联 数据 化 研 究 一 一 以 德国 国家 图 书馆 为 例 品 . 图 书馆 论坛 ， 
:二 2013,33(1):120-125.。 我 国 中 国 科 学 院 图 书馆 、 EU 中 国 科学 技术 信息 研究 所 等 多 
家 机 构 及 学 者 对 关联 数据 保持 较为 持续 的 关注 与 研究 ， 并 形成 应 用 成 果 ， 例 如 上 海 图 书馆 
依托 本 馆 资源 以 关联 数据 的 方式 发 布 了 一 era 库 尚 疲 新 , 喜 润 , 夏 琴 娟 ,等 .关联 数据 在 知 
= REF MHARI Fe Sea J) AH OSE, 2022(03):22-31.. 
-二 在 机 构 知 识 库 领域 ， 国 内 学 者 的 相关 研究 主要 集中 在 以 下 几 个 方面 。 首 先 ， 关 联 数据 
在 机 构 知 识 库 构 建 中 的 应 用 ， 如 周 宇 、 欧 石 燕 提出 了 一 种 基于 关联 数据 的 机 构 知 识 库 构 建 
方法 周 宇 , 欧 石 燕 .面向 关联 数据 的 高 校 机 构 知 识 库 构 建 方法 研究 吊 . 图 书 情 报 工作 ， 
2016,60(01):105-113.; 郭 卫 兵 、 臧 莉 娟 依据 关联 数据 基本 原则 研究 了 国防 科研 机 构 知 识 库 
的 构建 与 服务 模式 郭 卫 兵 , 臧 莉 娟 .基于 关联 数据 技术 的 机 构 知 识 库 构 建 与 服务 品 . 兵 器 装备 
工程 学 报 ,2020,41(12):275-280.。 其 次 ， 关 联 数据 在 机 构 知 识 库 数 据 关 联 与 服务 中 的 应 用 ， 
如 陈 洛 等 探讨 了 科技 报告 数据 与 机 构 知 识 库 的 关联 机 制 陈 洁 , 韩 非 , 武 黄 , 等 .科技 报告 数据 关 
联机 制 研究 中 .数字 图 书馆 论坛 ,2017(01):46-50.; 林 静 等 研究 了 基于 关联 数据 的 机 构 知 识 库 
延伸 服务 林 静 , 陈 和 , 陈 娟 ,等 .基于 关联 数据 消费 的 高 校 图 书馆 延伸 服务 探索 一 一 以 厦门 大 学 
图 书馆 为 例 员 .大 学 图 书馆 学 报 ,2020,38(03):71-79.。 再 次 ， 关 联 数据 在 机 构 知 识 库 资源 发 现 
中 的 应 用 ， 如 王 思 丽 、 视 忠明 研究 了 关联 数据 在 机 构 知 识 库 语义 拓展 中 的 应 用 ， 以 促进 机 
构 库 的 资源 发 现 服务 王 思 丽 , 视 忠 明 . 利 用 关联 数据 实现 机 构 知识 库 的 语义 扩展 研究 叫 . 现 代 
图 书 情报 技术 ,2011(11):17-23.; 都 平平 等 在 其 研究 中 提 到 机 构 知 识 库 的 科学 研究 数据 可 通 
过 关联 数据 建立 关系 链接 都 平平 , 李 雨 珂 , 孟 勇 ,等 .新 一 代 机构 知 识 库 中 研究 数据 的 关联 组 织 
研究 [. 现 代 情 报 ,2018,38(12):86-90.; 赵 夷 平 研究 了 基于 关联 数据 的 机 构 知 识 库 资源 聚合 与 
知识 发 现 体系 构建 等 方面 内 容 赵 夷 平 .基于 关联 数据 的 机 构 知 识 库 资源 聚合 与 知识 发 现 研究 
[D]. 吉 林 大 学 ,2018.。 
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综 上 所 述 ， 目 前 学 术 界 已 开展 机 构 知 识 库 资 源 实体 关系 、 关 联 数据 在 机 构 知 识 库 中 的 
应 用 等 相关 研究 ， 但 深入 分 析 实 体 关 系 ， 探 析 基 于 关联 数据 技术 的 机 构 知 识 库 实 体 学 术 关 
系 关 联 与 发 现 的 研究 尚未 有 之 。 本 文 研 究 的 主要 目标 是 : 其 一 ， 基 于 机 构 知 识 库 科 研 实 体 
之 间 存 在 的 学 术 关 系 ， 提 出 利用 关联 数据 技术 的 机 构 知 识 库 实体 学 术 关 系 发 现 方法 ， 其 二 
以 河 海 大 学 机 构 知 识 库 为 数据 源 ， 按 照 本 文 提出 的 方法 进行 实证 研究 ， 验 证 方法 的 可 行 性 
有 效 性 。 
3 基于 关联 数据 的 学 术 关 系 发 现 方法 

利用 关联 数据 进行 学 术 关 系 发 现 ， 首 先 要 明晰 机 构 知 识 库 资源 实体 之 间 存 在 的 学 术 关 
系 类 型 有 哪些 ， 以 及 学 术 关 系 涉及 到 的 特征 属性 ， 其 次 要 将 资源 数据 转换 为 符合 关联 数据 
格式 的 数据 ;， 再 次 基于 合适 的 关联 方法 ， 发 现 数据 学 术 关 系 ， 并 建立 关联 链接 ;最 后 通过 
可 视 化 方法 ， 揭 示 学 术 关系 关联 结果 ， 实 现 机 构 知 识 库 资 源 的 语义 聚集 。 
3.1 学 术 关 系 类 型 

本 文 作 者 及 其 团队 在 先前 研究 中 ， 通 过 分 析 机 构 知 识 库 主 要 资源 类 型 及 其 特征 属性 ， 
以 学 者 、 机 构 、 学 科 、 资 源 作为 分 析 对 象 ， 依 据 学 术 关 系 内 涵 ， 将 机 构 知识 库 主 要 科研 实 
体 的 学 术 关 系 分 为 师承 关系 、 合 作 关 系 、 引 证 关系 、 贡 献 关 系 、 附 属 关系 等 类 型 孙 清 玉 , 梁 
美 宏 , 胡 晓 辉 .机 构 知 识 库 科 研 实体 学 术 关 系 发 现 体 系 研究 叫 . 情 报 杂 志 ,2022,41(11):179-184.。 
体 来 看 ， 学 者 层面 ， 学 者 与 学 者 之 间 存 在 师承 、 合 作 、 引 证 等 学 术 关 系 ; 学 者 与 机 
构 之 间 存 在 隶属 关系 ; 学 者 与 学 科 之 间 存 在 研究 领域 隶属 关系 ; 学 者 与 资源 之 间 存 在 贡献 
关系 。 机 构 层 面 ， 机 构 与 机 构 之 间 存 在 合作 关系 ， 包 含 一 级 机 构 、 二 级 机 构 不 同 层级 机 构 
间 的 合作 关系 ; 机 构 与 学 者 之 间 存 在 隶属 关系 ， 机 构 与 学 科 之 间 存 在 研究 领域 隶属 关系 ; 
机 构 与 资源 之 间 存 在 贡献 关系 。 学 科 层 面 ， 学 科 与 学 科 之 间 存 在 前 沿 热点 、 学 科 交 叉 等 学 
术 关 系 ; 学 科 分 别 与 学 者 、 机 构 、 资 源 之 间 存 在 研究 领域 隶属 关系 。 资 源 层面 ， 资 源 之 间 
存在 引证 、 附 属 、 相 关 等 学 术 关 系 ; 资源 与 学 者 之 间 存 在 被 贡献 关系 ; 资源 与 机 构 之 间 存 
在 隶属 关系 ; 资源 与 学 科 之 间 存 在 研究 领域 隶属 关系 孙 清 玉 , 梁 美 宏 , 胡 晓 辉 .机 构 知 识 库 科 
研 实体 学 术 关 系 发 现 体系 研究 [. 情 报 杂 志 ,2022,41(11):179-184.。 各 实体 间 的 学 术 关 系 及 其 
对 应 资源 属性 情况 如 表 1 所 示 。 


表 1 实体 主要 学 术 关 系 类 型 


实体 | 学 术 关系 | 对 应 资源 涉及 特征 属性 


师承 关系 作者 ， 导 师 ERR, MARIKA 
E% 


含 两 个 或 两 个 以 上 |4 了 解 学 者 间 学 术 交 流 、 学 科 交 叉 、 
作者 的 资源 队 构成 等 情况 


引证 关系 | 含 参考 文献 的 资源 | 作者 ， 参考 文献 | 通过 共 被 引 、 耦 合 、 互 引 等 关系 
作者 有 ， 揭 示 学 者 间 知 识 交 流 分 布 


含 两 个 或 两 个 以 上 了 解 机 构 间 学 术 交流 合作 | 
机 构 的 资源 


Th 
T 
a 


+ 共 现 分 析 、 聚 类 分 析 等 ， 了 
学 科研 究 前 沿 、 热 点 


二 共 现 分 析 等 ， 发 现 学 科 交 又 


资源 标识 符 ; 
考 文献 标识 符 


Iz YA . 
D5 


3.2 关联 数据 准备 


资源 类 型 


参 


Eg 


Fi F RK BEARS WAS AR ER 


联 数据 准备 过 程 分 为 以 下 三 个 步骤 。 
第 一 ， 数 据 描述 与 标准 化 处 理 。 
有 机 器 抓 取 数据 ， 其 数据 结构 内 容 各 不 机 
建 元 数据 集 、 构 建 规范 文档 、 属 性 


实体 关系 i 


行 关 联 与 发 
资源 数据 转换 为 符合 关联 数据 格式 的 数据 。 依 据 关 联 数据 概念 及 


> EA 


用 ， 探 索 学 术 知识 流 


个 


按 相 关 程 度 组 织 
RIN 


kt 有 一 定 相关 关 


岗 ， 前 提 是 将 机 构 知识 库 
四 个 基本 原则 ， 可 以 将 关 


机 构 知 识 库存 储 的 资源 内 容 既 有 人 工 上 传 的 数据 、 也 


日 同 > 而 需要 通 过 标 
描述 方案 等 。 其 中 所 构建 元 数据 集 主 要 是 机 构 知 识 库存 


储 的 不 同类 
学 科 规 范文 档 ; 数据 属性 
数据 ) 方案 。 需 要 注意 的 是 ， 
的 元 数据 集 、 学 者 词典 、 机 
复 用 或 映射 。 


H y 


构 词 典 等 ， 因 


林 核 心 元 


型 资源 元 数据 集 ， 所 构建 规范 文档 应 至 少 包 括 : 
述 方案 可 选择 都 柏 
机 构 知 识 库 在 建设 期 间 通 党 
此 在 进行 数据 标准 


N 


数据 梁 美 宏 .书目 
要 将 标准 


联 数据 的 关联 方法 而 


供 数据 间 的 联系 ， 而 且 携 带 语义 信息 ， 便 
属性 、 属 性 值 组 成 ， 表 示 资 源 的 一 个 
18]. http://www.w3 school.com.cn/rdf/rdf_ 
Identifier, URI) 是 互联 网 党 
地 址 进行 叭 


属性 


intro.asp. ; 


FR] 


EL 


述 实现 格式 统一 ， 包 括 构 


H 


学 者 规范 文档 、 机 构 规范 文档 


数据 (Dublin Coremetadata, DC 元 


前 党 已 
Li 


建 有 部 分 基于 特定 元 数据 方案 
化 处 理 时 ， 要 考虑 已 有 内 容 的 


科学 技术 信息 


第 二 ， 数 据 RDF 转化 与 URI 命 名 。 关 联 数据 是 以 URI 命 名 、RDF 三 元 组 格式 存储 的 
究 [D]. 北京 :中 
化 后 的 机 构 知 识 库 数 据 转换 为 RDF 形式 、URI 命 名 方式 。 其 
E 于 数据 识别 和 使 用 ， 
W3SCHOOL. RDF[EB/OL]. (2012-09-28) [2023-02- 
统一 资源 标识 符 (Uniform Resource 
作 源 的 标识 符 体系 ,用 来 对 能 够 被 识别 的 任何 电子 资源 的 名 称 或 
标识 BERNERS-LEE TFIELDING R,MASINTERL. Uniform resource identifiers 


研究 所 ,2016.， 因 此 
中 RDF 不 仅 可 以 提 
4S RDF 三 元 组 由 资源 、 


AY 


通常 


(URI):generic syntax[EB/OL]. (1998-08-01) [2023-02-18]. http://www. ietf.org/rfc/rfc2396.txt., U 


RI 命 名 时 既 可 复 用 已 有 
构 知识 库 资 源 与 实体 得 到 了 唯一 化 标 


Scholar:{<URI>,dc:creatorname} ， 


RIR, 


机 构 、 学 科 ， 即 这 几 个 实体 应 拥有 唯 


第 三 ， 


He ACAI, DOA 


区 人 


资源 、 也 可 依据 相关 语法 规则 自 定义 标 i 
并 可 建立 链接 ， 
学 者 所 属 机 构 局 
{<URI>,dc:institution,name} 。 机 构 知 识 库 实现 关联 数据 转化 的 内 容 至 少 包 括 资 } 
标识 符 。 
关联 数据 发 布 。 目 前 关联 数据 发 布 平 台 
据 资源 规模 、 数 据 更 新 频率 等 情 


只 符 。 经 过 转化 与 命名 的 机 
例如 资源 作者 属性 可 表示 为 


a 性 institution: 


a E O KN 
原 、 学 者 、 


多 种 ， 机 构 知 识 库 资 源 在 进行 关联 数 
青 况 ， 采 用 适合 本 机 构 库 实情 的 方式 ， 选 择 


适当 的 平台 将 规范 化 的 机 构 知 识 库 数 据 发 布 为 关联 数据 ， 为 知识 发 现 服务 提供 资源 保障 。 


3.3 学 术 关 系 关 联 方法 


基于 上 文 分 析 的 机 构 知识 库 主 要 科 丰 
属性 值 匹 配 的 推理 
在 选择 属性 时 ， 优 先 选择 唯一 标识 符 ， 


如 名 称 、 编 号 、 主 题词 、 分 类 号 等 


在 没有 唯 
。 具 体 关 联 方法 及 过 程 如 


方法 ， 以 发 现 机 构 知 识 库 资 源 、 学 者 、 


实体 间 学 术 关 系 类 型 及 相关 资源 特征 属 


=E 


性 ， 采 用 


机 构 、 学 科 实 体 之 间 的 学 术 关系 ， 


标识 符 的 1 


青 况 下， 选用 相对 规范 的 属性 ， 


图 1 所 示 。 


202305.00272v2 


chinaXiv 


de:identifier 
de:reference <A E> 引证 关系 


| | 
| | 
| | 
| de:project de:project | 
| Ga) ATE Cr ) 附属 关系 | 
面 dc:subject . | 
de:subject 人 ! 
-一 学 科 一 资源 4 A 
Se | 
dcreater + / | 
| dctutor _— < Ap Er 师承 关系 | 
| _ | 
Z 学 者 1 de:creater AR de:contributor 学 者 3 合作 关系 | 
a | ara dc:creater 学 者 4 ， | 
RE RAR “引证 关系 | 
ee gee an nn ana ns | 
| dc: dc 
n | 机 构 1 c:institution i institution PD oe | 
层 | de:seinstitution 合作 关系 
面 | de:seinstitution | 
| —¿ 31 一 | 
Seer ee LS is) a Creer ! 
I、 dcsubject dcsubject /| 
| 学 科 1 a <A> 2E 学 科 2 FARR i 
学 | ani A, fern | 
= | tia, $i 学 科 前 沿 热点 | 
面 l dc keyword de term | 


图 1 机 构 知识 库 实 体 学 术 关 系 关 联 方法 

资源 层面 ， 依 据 参考 文献 、 唯 一 标识 符 、 所 属 项 目 、 学 科 等 属性 ， 判 断 资源 之 间 学 术 
关系 。 通 过 匹配 URI 唯一 标识 符 属性 值 是 否 相同 ， 确 认 引 证 关系 ， 主 要 是 资源 及 参考 文献 
的 URI; 匹配 资源 来 源 、 类 型 、 所 属 项 目 等 属性 值 是 否 相 同 ， 确 认 附 属 关 系 ， 图 中 以 所 属 
基金 项 目 为 例 进行 说 明 ;， 匹配 作者 、 机 构 、 主 题词 、 学 科 等 属性 值 是 否 相 同 ， 确 认 相 关 关 
系 ， 图 中 以 学 科 为 例 进行 说 明 。 

学 者 层面 ， 依 据 作 者 、 导 师 、 其 他 作者 等 属性 ， 判 断 学 者 之 间 学 术 关 系 。 通 过 匹配 同 
一 资源 作者 和 导师 属性 值 ， 确 认 师 承 关 系 ; 匹配 同一 资源 作者 和 其 他 作者 属性 值 ， 确 认 合 
作 关系 ;匹配 资源 作者 和 参考 文献 作者 属性 值 ， 确 认 引 证 关系 。 

机 构 层 面 ， 依 据 机 构 属 性 ， 判 断 机 构 之 间 学 术 关 系 。 通 过 匹配 同一 资源 机 构 属 性 值 ， 
确认 一 级 机 构 合作 关系 。 在 相同 一 级 机 构 下 ， 匹 配 二 级 机 构 属 性 值 ， 确 认 二 级 机 构 合作 关 
系 。 

学 科 层面 ， 依 据 学 科 、 关 键 词 、 主 题词 等 属性 ， 判 断 学 科 之 间 学 术 关 系 。 通 过 匹配 资 
源 学 科 属 性 值 ， 确 认 学 科 交 叉 关 系 ;， 匹配 资源 关键 词 、 主 题词 等 属性 ， 通 过 社交 网 络 分 析 
等 途径 得 到 学 科 前 沿 热点 。 


3.4 学 术 关 系 发 现 结果 


根据 学 术 关 系 关 联 方法 及 其 流程 ， 可 以 得 到 机 构 知识 库 资 源 、 学 者 、 机 构 、 学 科 实 体 
之 间 的 学 术 关 系 ， 通 过 数据 URI 唯一 标识 符 使 资源 实现 语义 链接 ， 利 用 合适 的 可 视 化 工具 
使 具有 学 术 关 系 的 可 链接 数据 得 到 可 视 化 展示 ， 有 利于 资源 语义 聚合 组 织 ， 便 于 用 户 浏 览 
与 获取 信息 内 容 。 经 过 发 布 后 的 关联 数据 能 够 使 机 构 知 识 库 资源 与 分 布 在 网 上 的 其 他 资源 
进行 关联 ， 扩 大 学 术 关 系 网 络 语义 组 织 ， 为 学 术 交 流 与 扩散 提供 帮助 。 


学 者 规范 文档 ”机 构 库 作者 表 
性 字 


4 基于 关联 数据 的 学 术 关 系 发 现实 证 


河 海 大 学 机 构 知 识 库 建设 以 来 ， 较 全 面 地 收集 了 本 校 在 职 教师 的 中 外 文科 研 成 果 ， 并 
建 有 元 数据 框架 、 作 者 表 和 机 构 表 。 本 文 以 该 机 构 知 识 库 为 数据 来 源 ， 依 据 上 文 研究 的 学 
术 关 系 发 现 方法 开展 实证 研究 ， 验 证 所 构建 方法 的 科学 性 、 合 理性 、 有 效 性 。 


4.1 数据 获取 与 处 理 


在 机 构 知识 库 中 选择 10 条 数据 作为 实证 样本 数据 ， 开 展 实证 研究 。 数 据 处 理 流程 包括 : 
导出 数据 ; 构建 元 数据 集 ， 并 进行 初步 清洗 加 工 ， 在 机 构 库 已 有 的 元 数据 框架 、 作 者 表 、 
机 构 表 等 基础 上 ， 构 建 学 者 规范 文档 、 机 构 规 范文 档 、 学 科 规 范文 档 ; 采用 DC 元 数据 方 
案 对 数据 进行 规范 描述 ， 将 规范 描述 好 的 数据 转化 为 RDF 格式 ， 并 以 统一 资源 标识 符 URI 
命名 。 最 终 得 到 关联 数据 格式 的 数据 。 

a) 规范 文档 建立 与 DC 描述 
第 一 构建 元 数据 集 。 将 10 条 资源 数据 导出 为 结构 化 的 二 维 表格 式 ， 使 表 中 每 一 列表 示 
资源 的 一 个 属性 ， 每 一 行为 一 个 资源 的 所 有 属性 值 。 在 Excel 中 初步 清洗 数据 ， 包 括 将 其 
他 作者 属性 中 的 多 名 作者 分 列 ， 使 每 个 属性 仅 对 应 一 个 属性 值 ， 将 机 构 属 性 中 一 级 机 构 和 
二 级 机 构 名 称 分 列 存储 ， 并 去 掉 其 中 地 址 、 邮 编 等 非 机 构 名 称 内 容 ， 其 中 二 级 机 构 仅 存 储 
河 海 大 学 的 二 级 机 构 ; 统一 中 外 文 属性 中 的 标点 符号 格式 ， 补 充 重 要 属性 的 缺失 数据 等 等 
最 终 构建 出 资源 元 数据 集 。 
第 二 构建 规范 文档 。 学 者 规范 文档 以 机 构 库 建 有 的 作者 表 和 校 人 事 处 提供 的 教师 信息 
表 为 基础 进行 构建 ， 以 河 海 大 学 师 生 为 建设 主体 ， 其 中 缺失 内 容 通 过 官方 网 站 调研 、 学 术 
文献 中 作者 简介 等 途径 予以 补充 。 机 构 规范 文档 以 机 构 库 建 有 的 机 构 表 为 基础 进行 构建 ， 
二 级 机 构 以 河 海 大 学 二 级 机 构 为 建设 主体 ， 缺 失 内 容 通过 官方 网 站 调研 予以 补充 。 学 科 规 
范文 档 以 机 构 库 建 有 的 学 科 表 为 基础 进行 构建 ， 并 将 教育 部 一 级 学 科 作为 规范 名 称 ， 中 图 
分 类 号 、ESI 学 科 、WOS 学 科 分 别 与 教育 部 学 科 进 行 映射 ， 并 作为 别称 ， 其 中 我 国 目前 最 
新 的 教育 部 学 科 分 类 共 设 置 117 个 一 级 学 科 国 务 院 学 位 委员 会 ,教育 部 .研究 生 教育 学 科 专 业 
A 录 ( 2022 年 ) [EB/OL]. (2022-09-13) [2023-03-15]. 
http://www.gov.cn/zhengce/zhengceku/2022- 
09/14/5709785/files/bb23485679bf489aba5d3299c36e0606.pdf.， 第 五 版 中 图 分 类 法 共 分 五 大 
部 类 、22 个 基本 大 类 国家 图 书馆 《中 国 图 书馆 分 类 法 》 编 辑 委员 会 .中 国 图 书馆 分 类 法 (第 
五 版 )[IM]. 北 京 : 国家 图 书馆 出 版 社 ,2010.，Web of Science 数据 库 将 ESI 学 科 分 为 22 大 类 、 
WOS 学 科 分 为 252 个 方向 Clarivate. Web of Science Research Areas [EB/OL]. (2021-12-01) 
[2023-03-15]. https://incites.help.clarivate.com/Content/Research-Areas/wos-research- 
areas.htm?Highlight=research%20area.. X 2 列 出 了 所 构建 规范 文档 部 分 属性 和 机 构 库 已 有 
词 表 字段 的 映射 情况 。 基 于 所 构建 规范 文档 ， 将 元 数据 集中 的 数据 进行 规范 化 清洗 。 

表 2 规范 文档 属性 与 机 构 库 词 表 字段 映射 情况 


机 构 规 范文 档 ”机 构 库 机 构 表 | 学 科 规 范文 档 ”机构 库 学 科 表 字段 
属性 字段 属性 


属 Be 

唯一 标识 符 ” ”编号 唯一 标识 符 编号 唯一 标识 符 / 

规范 姓名 姓名 规范 名 称 机 构 名 规范 名 称 教育 部 一 级 学 科 
出 生年 月 / 成 立时 间 / 分 类 号 中 图 分 类 号 
别名 曾 用 名 别称 曾 用 名 ESI 学 科 ESI 学 科 

籍贯 / 所 在 地 区 所 属地 区 WOS 学 科 WOS 学 科 

性 别 / 上 级 机 构 上 级 机 构 

所 属 机 构 二 级 机 构 下 级 机 构 下 级 机 构 

所 属 学 科 / 


研究 方向 / 


架 和 学 术 关 系 匹 配属 性 需求 ， 扩 展 元 数据 
对 实证 样本 数据 、 所 建 规范 文档 数据 进行 DC 元 数据 
描述 。 
数据 属性 机 构 库 元 数据 字段 
唯一 标识 符 / 
标题 title_c 
其 他 题名 title_e 
第 一 作者 showwriter 
其 他 作者 / 
导师 bstutorsname 
机 构 showorgan 
二 级 机 构 / 
学 / 
关键 词 keyword 
主题 词 / 
参考 文献 / 
出 版 物 publisher 
出 版 时 间 years 
语种 language 
卷 期 vol; num 
基金 项 目 fund 
(2) RDF 转化 与 URI 命 名 
将 上 述 DC 描述 化 后 的 数 


内 容 ， 二 维 表 中 每 一 行 数据 整 


分 别 为 : 


第 三 DC 元 数据 描述 。 


前 级 + 唯 


表 3 机 构 库 元 数据 描 


标识 编号 ， 


DC 元 数据 方案 包 合 15 个 核心 元 素 ， 根 据 机 构 库 己 有 元 数据 杠 
得 到 元 数据 方案 如 表 3。 基 于 该 方案 
i 述 ， 使 不 同 结构 格式 的 数据 得 到 统 


i 述 方案 


DC 元 数据 描述 
de: identifier 
de: title 

de: otitle 

dc: creator 
dc: contributor 
de: tutor 

de: institution 
de: seinstitution 
de: subject 
de: keyword 
de: term 

de: reference 
dc: publisher 
dc: date 

de: type 

dc: language 
de: volume 


de: fund 


HARA RDF 格式 ， 表 示 实 体 与 属性 的 关系 。 依 据 RDF 组 成 
本 (一 个 实体 数据 〉 为 一 个 RDF 三 元 组 主体 ， 主 键 数据 为 主 
体 的 URI 标识 符 ， 每 一 列 标题 属性) 为 三 元 组 谓词 ， 每 一 列 数据 (属性 值 ) 为 三 元 组 客 
体 。 二 维 表 行 数 表示 实体 个 数 ， E 三 元 组 数量 。 

sae as 学 者 、 机 构 、 学 科 的 命 
基础 ， 命 名 机 制 ; 


。 以 机 构 知识 库 已 有 数据 URI 为 
机 构 、 学 科 的 URI 命 名 前 绥 
“http:// a i Ale De 

id=’, “http://ir-hhu.edu.cn/writer/rw_zp.aspx?id=” . 
id=”, “http://ir.hhu.edu.cn/class/db_zp.aspx?id=” . 


“http://ir.hhu.edu.cn/organ/jg_zp.aspx? 


最 终 得 到 经 过 统一 规范 清洗 与 描述 后 的 部 分 规范 文档 、 实 证 样本 数据 分 别 如 图 2、 图 3 
所 示 ， 图 中 唯一 标识 符 均 省 略 前 级 内 容 。 
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图 3 规范 描述 化 的 实证 样本 数据 


4.2 数据 关联 过 程 及 关联 结果 


得 


T o 


导 到 实体 之 间 


根据 上 文 构 
的 学 


为 方便 


的 学 术 关 系 关联 方法 及 其 过 程 ， 对 实证 样本 数据 进行 属性 值 匹配 推理 ， 
术 关 系 ， 并 建立 链接 。 
述 实体 之 间 学 术 关 系 ， 图 4 以 上 述 规 范 描述 数据 中 的 序号 代表 实体 ， 
2、8、10 四 条 数据 为 例 ， 


以 实体 


展示 了 数据 大 致 下 


因此 二 者 存在 引证 关系 ; 资源 1 与 资源 2 的 学 科 


属性 相同 ， 因 此 二 者 存在 相关 关系 ; 等 等 。 表 4 列 出 了 实证 样本 数据 中 各 实体 之 间 的 部 分 
学 术 关 系 。 


合作 关系 MEXA 


http://ir-hhu.edu.cn/organ/ http://ir-hhu.edu.cn/organ/ 
jg_zp.aspx?id=21£30d5836 | | jg_zp.aspx?id=98466636db 
da52f9 


ttp://ir-hhu.edu.cn/Articles/ 
Article Detail.aspx?id=66daal 
75bc644d8a758fbfb8ec7881d 


e53b38 


机 构 1 机 构 6 


de:seinstitution 
de:seinstitution 


引证 关系 
tp://ir.hhu.edu.cn/Articles/ 
Article _Detail.aspx?id=dSeada ) 
f7943ceafb2cc63358df81a 


p://ir.hhu.edu.cn/Articles/ 
Article Detail.aspx?id=675260 
aa3f2542ad8373e07db371f5d3 


de:reference 


http://ir.hhu.edu.cn/writer/ 

rw_zp.aspx?id=7e145c185 
3fofc2d 

a 引证 关系 


http://ir-hhu.edu.cn/writer/ 
TW_zp.aspx?id=1751e5362 
1f78b45 


al 


http://ir-hhu.edu.cn/writer/ 合作 关系 
rw_zp.aspx?id=8437a0c31 | 师承 关系 
de89168 


ittp://ir.hhu.edu.cn/Articles/ 
Article _Detail.aspx?id=ba3d2a 
xA 4173424a87a5440028faec7 


图 4 实体 学 术 关 系 匹 配 情况 
表 4 实证 数据 实体 部 分 学 术 关 系 
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学 术 关系 


在 学 术 关 系 关 联结 果 基 础 上 ， 通 过 资源 URI 相互 链接 指向 ， 能 够 使 拥有 学 术 关 系 的 实 
体 实现 语义 关联 聚集 ， 提 高 学 术 关 系 发 现 的 深度 与 广度 ， 利 用 可 视 化 方法 将 实体 及 其 学 术 
关系 展现 出 来 ， 能 够 使 用 户 更 加 便捷 、 高 效 地 获取 利用 机 构 知识 库存 储 的 资源 。 


5 结语 与 展望 


依据 基于 关联 数据 的 学 术 关 系 发 现 方法 ， 能 够 发 现 机 构 知 识 库 不 同 实体 之 间 存 在 的 学 
术 关 系 ， 例 如 资源 之 间 引 证 关系 、 学 者 之 间 师 承 关 系 、 机 构 之 间 合 作 关 系 等 等 ， 使 学 术 生 
产 过 程 中 产生 的 实体 与 成 果 得 以 语义 联结 在 一 起 ， 利 于 知识 脉络 梳理 、 学 术 发 展 创新 。i 
方法 应 用 于 机 构 知识 库 资源 组 织 建设 ， 有 助 于 机 构 知识 库 优化 资源 组 织 、 扩 展 知识 服务 ， 
促进 机 构成 果 理 解 与 传播 、 交 流 与 创新 。 

本 文 研究 仍 存在 一 些 不 足 之 处 : 例如 学 术 关 系 类 型 的 分 类 未 必 全 面 准确 ， 需 要 在 实践 
工作 中 结合 数据 内 容 不 断 完善 ， 学 术 关 系 关联 方法 的 科学 性 、 合 理性 需要 通过 大 量 不 同类 
型 资源 实证 ， 逐 步 修正 ， 学 术 关系 发 现 结果 的 有 效 性 、 正 确 性 需要 进一步 核验 。 今 后 将 在 
研究 中 通过 更 多 数据 实证 工作 ， 结 合理 论 与 实践 ， 进 一 步 完善 学 术 关 系 发 现 方法 ， 使 得 所 
构建 方法 与 发 现 结果 更 加 具有 应 用 价值 。 


ae 
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Research on Institutional Repository Entity Academic Relationship Discovery Method Based on 
Linked Data 

Liang Meihong' Hu Xiaohui' Shu Pengfei Liu Fei’ 
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Abstract: [Purpose/significance] By using the uniqueness and linkability of linked data, the 
paper tries to discover and correlate academic relationship of institutional repository entities, in 
order to realize institutional repository resources semantic aggregating. [Method/process] It 
analyzes the types and characteristics of the entity academic relationship and linked data 
requirements, then puts forward academic relationship association methods. Finally it uses the 


data of Hohai University Institutional Repository to conduct an empirical study. 


[Results/Conclusion] The paper builds the method of discovering entity academic relationships 
based on linked data. It finds out the academic relationships of empirical data and points out its 
application value. This method can realize semantic associating of institutional repository 
resources, and provide knowledge retrieval service based on linked data, which can meet user's 


knowledge needs. 
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